其他
Prokka:快速原核基因组、宏基因组基因注释
Prokka:快速原核基因组注释
热心肠日报
Prokka是原核基因组注释的分析流程,包括基因鉴定、功能注释和基因组配套注释文件生成; 软件使用Prodigal鉴定编码基因位置,多种软件鉴定多类型非编码RNA,并采用多种方法和数据库依次对基因功能进行注释; 软件输入文件仅为fasta文件,依赖软件和数据库较多,但支持conda一键安装; 软件在功能注释步骤较耗时,通常细菌基因组在10分内完成,宏基因组耗时较长可将任务拆分计算; 结果输出10类文件,满足发表、提交NCBI所需的各类文件需求。
摘要
1 简介
2 描述
2.1 输入
2.2 注释
表1 Prokka使用的功能预测工具
用户提供的可选的带注释的蛋白质集。预计这些将是值得信赖的精选数据集,并将用作注释的主要来源。使用BLAST+ blastp搜索(Camacho等,2009)。 UniProt中的所有细菌蛋白(Apweiler等人,2004)均具有真实的蛋白或转录本证据,并且不是片段。这是约16000种蛋白质,通常在大多数基因组中覆盖 > 50%的核心基因。使用BLAST +搜索。 RefSeq中来自特定细菌属的完整细菌基因组的所有蛋白质。这捕获了特定域的命名,并且数据库的大小和质量各不相同,具体取决于该属的流行程度。BLAST+ 用于此目的,并且是可选的。 一系列隐马尔可夫模型表征数据库,包括Pfam(Punta等,2012)和TIGRFAM(Haft等,2013)。这是使用HMMER 3.1软件包中的hmmscan(Eddy,2011年)执行的。 如果找不到匹配项,请标记为“假设蛋白”。